给定一个较小的培训数据集和学习算法,要达到目标验证或测试性能需要多少数据?这个问题至关重要,在诸如自动驾驶或医学成像之类的应用中,收集数据昂贵且耗时。高估或低估数据需求会带来大量费用,而预算可以避免。关于神经缩放定律的先前工作表明,幂律函数可以符合验证性能曲线并将其推断为较大的数据集大小。我们发现,这并不能立即转化为估计所需数据集大小以满足目标性能的更困难的下游任务。在这项工作中,我们考虑了一系列的计算机视觉任务,并系统地研究了一个概括功能功能的功能家族,以便更好地估算数据需求。最后,我们表明,结合调整的校正因子并在多个回合中收集会显着提高数据估计器的性能。使用我们的准则,从业人员可以准确估算机器学习系统的数据要求,以节省开发时间和数据采集成本。
translated by 谷歌翻译
自治车辆的评估和改善规划需要可扩展的长尾交通方案。有用的是,这些情景必须是现实的和挑战性的,但不能安全地开车。在这项工作中,我们介绍努力,一种自动生成具有挑战性的场景的方法,导致给定的计划者产生不良行为,如冲突。为了维护情景合理性,关键的想法是利用基于图形的条件VAE的形式利用学习的交通运动模型。方案生成在该流量模型的潜在空间中制定了优化,通过扰乱初始的真实世界的场景来产生与给定计划者碰撞的轨迹。随后的优化用于找到“解决方案”的场景,确保改进给定的计划者是有用的。进一步的分析基于碰撞类型的群集生成的场景。我们攻击两名策划者并展示争取在这两种情况下成功地产生了现实,具有挑战性的情景。我们另外“关闭循环”并使用这些方案优化基于规则的策划器的超参数。
translated by 谷歌翻译
自动驾驶依赖于大量的现实数据被标记为高精度。替代解决方案寻求利用驾驶模拟器,该模拟器可以使用多种内容变体产生大量标记数据。但是,合成和实际数据之间的域间隙仍然存在,提高以下重要问题:利用自动驾驶模拟器进行感知任务的最佳方法是什么?在这项工作中,我们建立了域 - 适应理论的最近进步之上,从这个角度来看,提出了最小化现实差距的方法。我们主要专注于单独使用合成域中的标签。我们的方法介绍了学习神经不变的表示的原则方法以及关于如何从模拟器对数据进行采样的理论上灵感的视图。我们的方法在实践中易于实施,因为它是网络架构的不可知论由和模拟器的选择。我们在使用开源模拟器(Carla)的多传感器数据(摄像机,LIDAR)上展示了我们的方法,使用开源模拟器(Carla),并在真实世界数据集(NUSCENES)上评估整个框架。最后但并非最不重要的是,在用驾驶模拟器训练时,我们展示了在感知网络中对感知网络的任何类型的变化(例如天气状况,资产,地图设计和色彩分集),并且可以使用我们的域适配技术来补偿这些类型。
translated by 谷歌翻译
We propose a model that, given multi-view camera data (left), infers semantics directly in the bird's-eye-view (BEV) coordinate frame (right). We show vehicle segmentation (blue), drivable area (orange), and lane segmentation (green). These BEV predictions are then projected back onto input images (dots on the left).
translated by 谷歌翻译
Generalized Labeled Multi-Bernoulli (GLMB) densities arise in a host of multi-object system applications analogous to Gaussians in single-object filtering. However, computing the GLMB filtering density requires solving NP-hard problems. To alleviate this computational bottleneck, we develop a linear complexity Gibbs sampling framework for GLMB density computation. Specifically, we propose a tempered Gibbs sampler that exploits the structure of the GLMB filtering density to achieve an $\mathcal{O}(T(P+M))$ complexity, where $T$ is the number of iterations of the algorithm, $P$ and $M$ are the number hypothesized objects and measurements. This innovation enables an $\mathcal{O}(T(P+M+\log(T))+PM)$ complexity implementation of the GLMB filter. Convergence of the proposed Gibbs sampler is established and numerical studies are presented to validate the proposed GLMB filter implementation.
translated by 谷歌翻译
Barlow Twins自制学习目标既不需要负样本或不对称的学习更新,从而与计算机视觉中当前最新艺术相提并论。因此,我们提出了音频Barlow双胞胎,这是一种新颖的自我监督音频表示方法,将Barlow Twins适应音频域。我们在大规模音频数据集音频集上预先培训,并评估来自2021年HEAR 2021挑战的18个任务的学习表现质量,从而取得了超越或以其他方式与当前最新的结果相同的结果。 - 例如,歧视自我监督的学习方法来表示音频表示学习。https://github.com/jonahanton/ssl_audio上的代码。
translated by 谷歌翻译
目的:大大缩短定量3D化学交换饱和转移(CEST)和半固体磁化转移(MT)成像所需的采集时间,并允许快速化学交换参数图重建。方法:三维CEST和MT磁共振指纹(MRF)数据集的L-精氨酸幻象,全脑,全脑和小腿肌肉的健康志愿者,癌症患者和心脏病患者是使用3T临床扫描仪在3T不同的位点使用3T临床扫描仪获得的3种不同的扫描仪模型和线圈。然后,设计和训练了一个生成的对抗网络监督框架(GAN-CEST),以学习从减少的输入数据空间到定量交换参数空间的映射,同时保留感知和定量内容。结果:GAN-CEST 3D采集时间为42-52秒,比CEST-MRF短70%。整个大脑的定量重建需要0.8秒。在地面真相和基于GAN的L-精氨酸浓度和pH值之间观察到了极好的一致性(Pearson的R> 0.97,NRMSE <1.5%)。来自脑肿瘤受试者的gan-cest图像产生的半固体量分数和汇率NRMSE为3.8 $ \ pm $ 1.3%和4.6 $ \ pm $ 1.3%,SSIM和96.3 $ \ pm $ \ pm $ 1.6%和95.0 $ \ pm $ 2.4%。半固体交换参数的NRMSE <7%和SSIM> 94%的小腿肌肉交换参数的映射。与MRF相比,在具有较大敏感性伪像的区域中,Gan-Cest表现出改善的性能和噪声降低。结论:Gan-Cest可以大大减少定量半固体MT/CEST映射的获取时间,同时即使在训练过程中无法使用的病理和扫描仪模型时,也可以保持性能。
translated by 谷歌翻译
我们提出了一系列两项研究,以了解基于语音的人机相互作用期间用户的情感状态。重点放在通信错误或失败的情况下。特别是,我们有兴趣了解与其他情感状态有关的“混乱”。研究由两种类型的任务组成:(1)与基于语音的虚拟代理的通信有关:与机器交谈并了解机器所说的话,(2)与参与者解决的无通信,解决问题的任务难题和谜语,但被要求口头解释机器的答案。我们收集了参与者情感状态的视听数据和自我报告。我们报告了两项研究的结果和分析收集的数据。根据注释者的观察对第一项研究进行了分析,并根据自我报告分析了第二项研究。
translated by 谷歌翻译
能量分解估计的单仪表逐一逐个电能量,以衡量整个房屋的电力需求。与侵入性负载监测相比,尼尔姆(非侵入性负载监控)是低成本,易于部署和灵活的。在本文中,我们提出了一种新方法,即创建的IMG-NILM,该方法利用卷积神经网络(CNN)来分解表示为图像的电力数据。事实证明,CNN具有图像有效,因此,将数据作为时间序列而不是传统的电力表示,而是将其转换为热图,而较高的电读数则被描绘成“更热”的颜色。然后在CNN中使用图像表示来检测来自聚合数据的设备的签名。 IMG-NILM是灵活的,在分解各种类型的设备方面表现出一致的性能;包括单个和多个状态。它在单个房屋内的英国戴尔数据集中达到了高达93%的测试准确性,那里有大量设备。在从不同房屋中收集电力数据的更具挑战性的环境中,IMG-NILM的平均准确度也非常好,为85%。
translated by 谷歌翻译
近年来,深神经网络(DNN)应用的流行和成功促使对DNN压缩的研究,例如修剪和量化。这些技术加速了模型推断,减少功耗,并降低运行DNN所需的硬件的大小和复杂性,而准确性几乎没有损失。但是,由于DNN容易受到对抗输入的影响,因此重要的是要考虑压缩和对抗性鲁棒性之间的关系。在这项工作中,我们研究了几种不规则修剪方案和8位量化产生的模型的对抗性鲁棒性。此外,尽管常规修剪消除了DNN中最不重要的参数,但我们研究了一种非常规修剪方法的效果:根据对抗输入的梯度去除最重要的模型参数。我们称这种方法称贪婪的对抗修剪(GAP),我们发现这种修剪方法会导致模型可抵抗从其未压缩的对应物转移攻击的模型。
translated by 谷歌翻译